我們已經知道 Azure 有三個實質好處:不必購買昂貴的硬體 (硬件成本)、不必自行建設基礎配置 (人力成本、軟體體成本),同時也可以讓使用者快速地建立預測模型 (時間成本)。我記得 IBM、NVIDIA 都有推出 XXX_Studio 的東西,感覺很快很好用,一天就可以建出成果了。但安教授想問:Azure Machine Learning Studio 適合做「產品」快速建模嗎?還是只能做「體驗」機器學習而已?
因為我們的目標是「開發 ML 解決方案」,也就是真正要去解決實際世界問題的。AML Studio 左邊有個 "EXPERIMENT",是可以做真實世界再快速測試模型與算法的作用嗎?像是 "Data Input and Output" 中的 "Import Data",是真的可以持續反覆地去抓取外部世界的資料嗎?有何限制?可抓取的外部資料源如下:
其實 AML Studio 甚至說整個 Azure 的 UI/UX,做得很像 Wordpress 最近一兩年的後台風格,而 Wordpress 市占率如此之高、如此商業化,那麼長相相似一樣的 Azure 又何嘗不可呢?
其實比較昂貴的大量儲存空間,如果雲端解決方案比較貴的話,那就在本地建一個即可,所以基本上還是要擁抱 Cloud Native 的思維。
Samples Visualization (Scatter Plots、Log Plots 等等)、Samples Statistics 也是另一個不需要花人力時間實作的環節,因為這都已經是固定的套路了,而且開放工具多而又多,等到進到客製化的時候,再用真正專業的套件上場開發即可。這方面第一手分析的獲取,應該在幾秒內完成。
上傳自己的資料集的時候,AML Studio 已經考慮到一個貼心的設計,當原始資料很大時,可將原檔案 ZIP 壓縮至 1/10 後上傳,到雲上再解壓縮,非常標準、貼心、漂亮的解法。大數據本來就應該不落地。在雲之間傳來傳去時,還有一個實務面要考慮,就是已經拿過來的資料就把它「Cache」,就不用每次啟動算法都要抓一次。真是貼心、又如此基本的設計。
以我們最常做的「線性迴歸模型」為案例,其流程如下:
AML Studio 有一點做得很好,就是「Train Model」類別與「Model」類別分離了。也就是說,「Train Model」與「Model」可以各自發展而彼此不受影響,需要合作只要進行合成 (Composition) 即可。